With the advancements in deep learning (DL) and an increasing interest in data-driven speech processing methods, there is a major challenge in accessing pathological speech data. Public challenge data offers a potential remedy for this but may expose patient health information by re-identification attacks. Therefore, we investigate in this study whether or not pathological speech is more vulnerable to such re-identification than healthy speech. Our study is the first large-scale investigation on the effects of different speech pathology on automatic speaker verification (ASV) using a real-world pathological speech corpus of more than 2,000 test subjects with various speech and voice disorders from different ages. Utilizing a DL-based ASV method, we obtained a mean equal error rate (EER) of 0.89% with a standard deviation of 0.06%, which is a factor of three lower than comparable healthy speech databases. We further perform detailed analyses of external influencing factors on ASV such as age, pathology, recording environment, utterance length, and intelligibility, to explore their respective effect. Our experiments indicate that some types of speech pathology, in particular dysphonia, regardless of speech intelligibility, are more vulnerable to a breach of privacy compared to healthy speech. We also observe that the effect of pathology lies in the range of other factors, such as age, microphone, and recording environment.
translated by 谷歌翻译
语音可理解性评估在患有病理语音疾病的患者的治疗中起着重要作用。需要自动和客观的措施,以帮助治疗师进行传统的主观和劳动密集型评估。在这项工作中,我们研究了一种新的方法,该方法是使用从健康的参考和病理扬声器获得的平行话语对的分离潜在语音表示中的差异来获得这种度量的。使用每个扬声器的所有可用话语,在英语数据库上进行了英语数据库,显示出高和显着的相关值(r = -0.9),具有主观的可理解性指标,而在四个不同的参考扬声器对中仅具有最小的偏差(+-0.01) 。我们还通过考虑每个扬声器的话语少得多,在1000次迭代中偏离1000次迭代的 +-0.02偏离 +-0.02)也证明了稳健性。我们的结果之一是最早表明可以使用删除的语音表示形式用于自动病理语音可理解性评估,从而产生了参考扬声器对不变方法,适用于仅有几个话语的场景。
translated by 谷歌翻译
我们将定量探测作为模型 - 非局部框架,用于在存在定量域知识的情况下验证因果模型。该方法被构造为基于相关的机器学习中火车/测试拆分的类似物,并增强了与科学发现逻辑一致的当前因果验证策略。在进行彻底基于模拟的研究之前,使用Pearl的洒水示例说明了该方法的有效性。通过研究示例性失败方案来识别该技术的限制,这些方案还用于提出一系列主题,以供未来的研究和改进定量探测的版本。在两个单独的开源python软件包中提供了将定量探测的代码以及基于模拟的定量探测有效性的基于仿真的研究的代码。
translated by 谷歌翻译
在查询图像中检索与感兴趣的对象(OOI)在语义上相似的对象具有许多实际用例。一些示例包括修复失败,例如虚假的负面因素/阳性模型或减轻数据集中的类不平衡。有针对性的选择任务需要从大规模的未标记数据池中找到相关数据。在此规模上进行手动开采是不可行的。此外,OOI通常很小,占据图像区域的1%不到1%,被遮挡,并且在混乱的场景中与许多语义上不同的物体共存。现有的语义图像检索方法通常集中在较大尺寸的地理地标的采矿和/或需要额外的标记数据,例如带有相似对象的图像/图像对,用于带有通用对象的挖掘图像。我们在DNN功能空间中提出了一个匹配算法的快速稳固的模板,该模板从一个大的未标记数据池中检索了对象级的语义相似图像。我们将查询图像中OOI周围的区域投射到DNN功能空间以用作模板。这使我们的方法能够专注于OOI的语义,而无需额外的标记数据。在自主驾驶的背景下,我们通过将对象探测器的故障案例作为OOI评估我们的系统进行靶向选择。我们证明了其在具有2.2m图像的大型未标记数据集上的功效,并在采矿中显示出对具有小型OOI的图像的高回忆。我们将我们的方法与众所周知的语义图像检索方法进行比较,该方法也不需要额外的标记数据。最后,我们证明我们的方法是灵活的,并以一种或多种语义上不同的同时发生的OOI无缝地检索图像。
translated by 谷歌翻译
本文经验研究了不同数据拆分和分裂策略对功能障碍检测系统性能的影响。为此,我们使用具有分类头的WAV2VEC 2.0模型以及支持向量机(SVM)以及从WAV2VEC 2.0模型中提取的功能进行实验。我们使用播客(SEP-28K)数据集中的口吃事件的不同非说明书和说话者的分裂训练和评估系统,以阐明结果W.R.T.的可变性。使用使用的分区方法。此外,我们表明SEP-28K数据集仅由少数扬声器主导,因此很难评估。为了解决这个问题,我们创建了Sep-28k扩展(Sep-28k-e),其中包含半自动生成的扬声器和性别信息,为SEP-28K语料库,建议不同的数据拆分,每个数据分配有用,可用于评估方法的其他方面用于功能障碍检测。
translated by 谷歌翻译
口吃是一种多种言语障碍,会损害个人的沟通能力。口吃(PWS)的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统,同时能够检测到治疗中获得的语​​音技术。本文表明,用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1],结合多任务的学习,增强了通用Purepose Wav2VEC 2.0的有效性,以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency(KSOF)[3]数据集[3]数据集,该数据集使用六种不同结肠相关的事件类型中提取的功能:块:块: ,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27%W.R.T. F1得分。
translated by 谷歌翻译
口吃是一种复杂的言语障碍,会对个人有效沟通的能力产生负面影响。口吃(PWS)的人通常在这种情况下遭受很大的痛苦,并通过治疗寻求帮助。流利的塑形是一种治疗方法,PWSS学会修改他们的语音以帮助他们克服口吃。即使在治疗后,掌握这种语音技术也需要时间和练习。治疗后不久,对成功的评估很高,但复发率很高。为了能够长期监视语音行为,检测口吃事件和语音修改的能力可以帮助PWSS和语音病理学家跟踪流利程度。监测可以通过检测流利度的失误来提早进行干预的能力。据我们所知,没有公共数据集可用,其中包含接受口吃疗法的人的演讲,这些疗法改变了口语风格。这项工作介绍了Kassel Fluency(KSOF),这是一项基于疗法的数据集,其中包含超过5500个PWSS。这些剪辑标记为六种与口吃相关的事件类型:块,延长,声音重复,单词重复,插入和 - 特定于治疗 - 语音修改。音频是在Kasseler Stottertherapie研究所期间记录的。该数据将根据要求提供用于研究目的。
translated by 谷歌翻译
作为最普遍的神经退行性疾病之一,帕金森病(PD)对患者的精细运动技能产生了重大影响。在语音生产过程中不同铰接器的复杂相互作用和所需肌肉张力的实现变得越来越困难,从而导致发狂的言论。在受影响的个体中通常可以观察到元音不稳定性,浆液发音和慢演说的特征模式,并在先前的研究中分析以确定PD的存在和进展。在这项工作中,我们使用了专门培训的语音识别器,以研究PD如何影响患者的语音占地面积。我们重新发现了许多在以前的贡献中描述的模式,尽管我们的系统从未见过此前从未见过任何病理演讲。此外,我们可以表明来自神经网络的中间激活可以用作编码与个人疾病状态有关的信息的特征向量。我们还能够直接将演讲者的专家额定智能性与语音预测的平均置信相提并论。我们的结果支持假设,即培训能够分析PD语音的系统不一定需要病理数据。
translated by 谷歌翻译
理解神经动力学的空间和时间特征之间的相互作用可以有助于我们对人脑中信息处理的理解。图形神经网络(GNN)提供了一种新的可能性,可以解释图形结构化信号,如在复杂的大脑网络中观察到的那些。在我们的研究中,我们比较不同的时空GNN架构,并研究他们复制在功能MRI(FMRI)研究中获得的神经活动分布的能力。我们评估GNN模型在MRI研究中各种场景的性能,并将其与VAR模型进行比较,目前主要用于定向功能连接分析。我们表明,即使当可用数据稀缺时,基于基于解剖学基板的局部功能相互作用,基于GNN的方法也能够鲁棒地规模到大型网络研究。通过包括作为信息衬底的解剖连接以进行信息传播,这种GNN还提供了关于指向连接性分析的多模阶视角,提供了研究脑网络中的时空动态的新颖可能性。
translated by 谷歌翻译
在过去十年中,发光二极管(LED)几乎在每个应用中都取代了常见的灯泡,从智能手机中的手电筒到汽车前灯。照亮夜间街道需要LED发出光谱,被人眼被人眼被视为纯白色。与这种白光谱相关的电力不仅分布在贡献波长上,而且在视觉角度上分布。对于许多应用,可用的光线需要在向前的方向上退出LED,即在小角度到垂直。在这项工作中,我们证明了白色LED顶部的专门设计的多层薄膜增加了向前发射的纯白光的功率。因此,推导的多目标优化问题是通过实质物理引导的目标函数重新重新制定,该函数代表了我们工程问题的层次结构。采用贝叶斯优化的变体基于射线跟踪模拟来最大化这种非确定性目标函数。最终,对合适的多层薄膜的光学性质的研究允许识别白光方向性的增加的机制:角度和波长选择性过滤导致多层薄膜与光线的乒乓球发挥作用。
translated by 谷歌翻译